分类中解决类别不平衡问题


关注微信公众号【Microstrong】,我现在研究方向是机器学习、深度学习,分享我在学习过程中的读书笔记!一起来学习,一起来交流,一起来进步吧!

本文同步更新在我的微信公众号里面,公众号文章地址:

https://mp.weixin.qq.com/s?__biz=MzI5NDMzMjY1MA==&mid=2247484313&idx=1&sn=568015a62bf99ca5b6bd282b465244be&chksm=ec65321cdb12bb0a772814204ac5f48136c99f44a39ff34f5bde115ab5630948a40f747a39f0#rd

本文同步更新在我的知乎专栏中:

分类中解决类别不平衡问题 - Microstrong的文章 - 知乎https://zhuanlan.zhihu.com/p/36381828

1.什么是类别不平衡问题

如果不同类别的训练样例数目稍有差别,通常影响不大,但若差别很大,则会对学习过程造成困扰。例如有998个反例,但是正例只有2个,那么学习方法只需要返回一个永远将新样本预测为反例的学习器,就能达到99.8%的精度;然而这样的学习器往往没有价值,因为它不能预测出任何正例。

类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。在现实的分类学习任务中,我们经常会遇到类别不平衡,例如在通过拆分法解决多分类问题时,即使原始问题中不同类别的训练样例数目相当,在使用OvR(一对其余,One vs. Rest,简称OvR)、MvM(多对多,Many vs. Many,简称MvM)策略后产生的二分类任务扔可能出现类别不平衡现象,因此有必要了解类别不平衡性处理的基本方法。

2.解决类别不平衡问题

2.1欠采样方法

(1)什么是欠采样方法

直接对训练集中多数类样本进行“欠采样”(undersampling),即去除一些多数类中的样本使得正例、反例数目接近,然后再进行学习。

(2)随机欠采样方法

随机欠采样顾名思义即从多数类中随机选择一些样样本组成样本集 。然后将样本集 中移除。新的数据集

缺点:

随机欠采样方法通过改变多数类样本比例以达到修改样本分布的目的,从而使样本分布较为均衡,但是这也存在一些问题。对于随机欠采样,由于采样的样本集合要少于原来的样本集合,因此会造成一些信息缺失,即将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息。

为了克服随机欠采样方法导致的信息缺失问题,又要保证算法表现出较好的不均衡数据分类性能,出现了欠采样法代表性的算法EasyEnsemble和BalanceCascade算法。

(3)欠采样代表性算法-EasyEnsemble

算法步骤:

1)从多数类中有放回的随机采样n次,每次选取与少数类数目相近的样本个数,那么可以得到n个样本集合记作

2)然后,将每一个多数类样本的子集与少数类样本合并并训练出一个模型,可以得到n个模型。

3)最终将这些模型组合形成一个集成学习系统,最终的模型结果是这n个模型的平均值。

图1:EasyEnsemble算法

(4)欠采样代表性算法-BalanceCascade

BalanceCascade算法基于Adaboost,将Adaboost作为基分类器,其核心思路是:

1)在每一轮训练时都使用多数类与少数类数量相等的训练集,训练出一个Adaboost基分类器。

2)然后使用该分类器对全体多数类进行预测,通过控制分类阈值来控制假正例率(False Positive Rate),将所有判断正确的类删除。

3)最后,进入下一轮迭代中,继续降低多数类数量。

图2:BalanceCascade算法

扩展阅读:

Liu X Y, Wu J

  • 58
    点赞
  • 331
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
数据不平衡问题是指在样本数据,不同类别的样本数量差异很大,导致模型在训练和预测过程对于少数类别的样本没有充分的学习和辨别能力。解决数据不平衡问题方法有以下几种: 1. 采样方法:通过对数据集进行采样,使得不同类别的样本数量相对均衡。常见的采样方法包括欠采样和过采样。 - 欠采样:随机删除多数类别样本,使得多数类别与少数类别的样本数量接近。但欠采样可能会丢失部分重要信息。 - 过采样:通过复制少数类别的样本或生成新的合成样本来增加少数类别的样本数量。常用的过采样方法有SMOTE和ADASYN等。但过采样可能会导致模型对于少数类别样本过于敏感。 2. 加权方法:通过调整样本的权重来平衡不同类别的样本。常见的加权方法有样本权重调整和算法权重调整。样本权重调整是给每个样本设置不同的权重,使得少数类别的样本在模型训练更加重要。算法权重调整是在模型使用特定的算法来调整不同类别的样本权重。 3. 数据合成方法:通过生成合成的样本来增加少数类别的样本数量。常见的数据合成方法有SMOTE和GAN等。这些方法可以根据已有的样本生成新的样本,使得少数类别的样本更加丰富。 需要根据具体情况选择合适的方法处理数据不平衡问题。在样本数据量较大,且正负样本比例相差不大的情况下,可以考虑采样或加权的方法解决;在正负样本数据比例相差悬殊的情况下,可以考虑用一分类方法解决
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值